为何甲基化水平和基因表达水平相关性弱?李蔚团队开发可以校正测序数据中细胞异质性的甲基化水平定量算法
责编 | 酶美
DNA甲基化修饰 (DNA methylation) 是一类不改变DNA序列的表观遗传修饰 (epigenetic modification)。在人类基因组中,DNA甲基化主要发生在CpG位点中的胞嘧啶 (cytosine) 上,具有抑制转录表达,参与基因组印记 (genomic imprinting) 以及调控染色体结构的作用。近几十年来,基于启动子附近CpG 岛 (promoter CpG island) 的甲基化研究揭示出甲基化CpG (mCpG) 经 methyl-CpG-binding domain (MBD) 蛋白家族读取后能够招募组蛋白去乙酰化酶 (histone deacetylase complexes) 来抑制基因的表达。尽管大量实验表明启动子附近CpG 岛的甲基化水平与基因表达水平应具有很强的负相关性,但是基于甲基化测序技术的研究却发现两者之间负相关性相对较弱。
美国加州大学尔湾分校李蔚教授团队,徐建锋、史偈君等研究人员于近日在Nature Communications杂志发表文章Cellular Heterogeneity-Adjusted cLonal Methylation (CHALM) improves prediction of gene expression,揭示了测序数据中观察到的甲基化水平和基因表达水平的弱相关性是由于传统的甲基化水平计算方法忽略了用于测序的细胞或组织样本中的细胞异质性(cellular heterogeneity),并开发出校正细胞异质性的CHALM算法,能够更加灵敏地在不同的生物学过程中发现生物功能相关的差异甲基化基因。
在甲基化测序数据的分析过程中,为了计算某个基因区域 (例如启动子区域)的甲基化水平,传统方法通常会先计算该区域内所有CpG位点的甲基化值然后简单地取平均值来代表该区域的甲基化程度的高低。该方法忽视了基因测序所用的细胞或组织样本中的细胞异质性,即单细胞之间在某一位点的甲基化状态有可能会具有差异。例如,在计算一个具有五个CpG位点的启动子区域的甲基化时,尽管样本a(图1a;一个细胞被完全甲基化,另外四个细胞无甲基化)和样本b(图1b;所有细胞均有一个CpG位点发生甲基化)具有不同的甲基化模式,传统方法仍会计算出相同的结果。但是由于很多研究表明单个CpG位点的甲基化足以结合MBD蛋白家族成员来抑制转录表达,因此样本b相比于样本a应有较低的转录水平。
图1. 计算基因区域甲基化水平的传统算法和CHALM算法之间的比较
在本项工作中,研究人员将具有至少一个CpG位点被甲基化的测序片段和所有位点均未被甲基化的测序片段分别定义为‘被甲基化的测序片段’ (methylated read) 和‘未被甲基化的测序片段’ (unmethylated read),并进一步开发CHALM算法,计算比对到某个基因区域的‘被甲基化的测序片段’的比例来代表其甲基化程度。根据CHALM算法,样本b相比于样本a具有明显较高的甲基化水平(图1)。为了证实CHALM算法的优越性,研究人员以CD3 primary细胞为例,展示出启动子的CHALM甲基化水平与基因的转录水平或者H3K4me3的组蛋白修饰水平的负相关性与传统方法相比显著提高。尤其对于低甲基化水平的基因来说,传统甲基化与转录水平的相关性趋近于零,而使用CHALM算法则能观测到两者之间的斯皮尔曼相关系数 (Spearman’s Rank-Order Correlation) 接近于 -0.5 (图2)。该研究还进一步利用卷积神经网络模型 (Convolutional neural network) 从甲基化测序片段数据中预测基因转录水平并且证明了细胞异质性信息对于基因表达的预测至关重要。最后,研究人员展示了在不同生物学过程中(癌症发生过程,衰老过程以及阿兹海默症),CHALM算法相比于传统方法可以发现更多生物功能相关的差异甲基化基因,因此有利于揭示出DNA甲基化在不同生物过程中扮演的角色以及寻找更加可靠的疾病相关的甲基化标志物。
文章的第一作者为徐建锋博士和史偈君博士,Jean-Pierre Issa教授、苏建中教授和李蔚教授为本文的共同通讯作者。
原文链接:
https://www.nature.com/articles/s41467-020-20492-7